Introduccion

Para el ICFES es muy importante conocer cuáles son los factores de éxito en el desempeño en un curso de matemáticas de estudiantes de grado 10mo.

El presente informe, tiene como objetivo presentar las características de los datos de estudiantes de grado 10mo que incluye su desempeño el curso de matemáticas.

Los datos fueron recolectados en un colegio a través del seguimiento del rendimiento académico en el curso de matemáticas.

Inicialmente se presentarán los detalles de la estructura de la base de datos, donde se detallará aspectos como el significado de cada fila y columna, los tipos de variable. Seguido de los detalles de la base de datos, expondremos los hallazgos más importantes en el análisis descriptivo univariado y bivariado y el tratamiento que les dimos. Por último, se listarán una serie de conclusiones y recomendaciones teniendo en cuenta los hallazgos encontrados en los datos.

Hallazgos

Limpieza de datos

Antes de empezar se cambia el formato de los datos:

sex age address Pstatus Medu Fedu reason traveltime paid internet absences G3
Femenino 18 Urbano Separados higher education higher education course 15 to 30 min. no no 6 to 10 absences 6
Femenino 17 Urbano Viviendo juntos none or primary education (4th grade) none or primary education (4th grade) course <15 min. no yes 0 to 5 absences 6
Femenino 15 Urbano Viviendo juntos none or primary education (4th grade) none or primary education (4th grade) other <15 min. yes yes 6 to 10 absences 10
Femenino 15 Urbano Viviendo juntos higher education 5th to 9th grade home <15 min. yes yes 0 to 5 absences 15
Femenino 16 Urbano Viviendo juntos secondary education secondary education home <15 min. yes no 0 to 5 absences 10
Masculino 16 Urbano Viviendo juntos higher education secondary education reputation <15 min. yes yes 6 to 10 absences 15

Exploración de los datos

El objetivo de esta sección es mostrar los hallazgos más relevantes del análisis univariado y su relación con la variable dependiente. Esto con el objetivo de dar un vistaso de las variables, mirar su distribución y encontrar si realmente tienen relación:

Analisis Univariado

Cuantitativas

Nota matemáticas
vars n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
1 357 11.52381 3.227797 11 11.45993 2.9652 4 20 16 0.2075008 -0.4275731 0.1708331 5 9 14

A continuación se hace la prueba de normalidad con 3 pruebas diferentes

## [1]  48 199
## 
##  Shapiro-Wilk normality test
## 
## data:  data$G3
## W = 0.98082, p-value = 0.000109
## 
##  Anderson-Darling normality test
## 
## data:  data$G3
## A = 2.5143, p-value = 2.323e-06
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data$G3
## D = 0.11068, p-value = 2.376e-11

Tal como se muestra en la gráfica y en las pruebas shapito, Anderson-Darling y Lilliefors (Kolmogorov-Smirnov) las notas de matemáticas NO siguen una distribución normal.

Edad
vars n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
1 357 16.65546 1.268262 17 16.58188 1.4826 15 22 7 0.5402778 0.1834692 0.0671235 2 16 18

A continuación se hace la prueba de normalidad con 3 pruebas diferentes

## [1] 226 355
## 
##  Shapiro-Wilk normality test
## 
## data:  data$age
## W = 0.90743, p-value = 5.702e-14
## 
##  Anderson-Darling normality test
## 
## data:  data$age
## A = 11.295, p-value < 2.2e-16
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data$age
## D = 0.18195, p-value < 2.2e-16

Cualitativas

Sexo
var frequency percentage cumulative_perc
5th to 9th grade 102 28.57 28.57
secondary education 94 26.33 54.90
higher education 88 24.65 79.55
none or primary education (4th grade) 73 20.45 100.00

Direccion
var frequency percentage cumulative_perc
5th to 9th grade 102 28.57 28.57
secondary education 94 26.33 54.90
higher education 88 24.65 79.55
none or primary education (4th grade) 73 20.45 100.00

Estado civil padres
var frequency percentage cumulative_perc
5th to 9th grade 102 28.57 28.57
secondary education 94 26.33 54.90
higher education 88 24.65 79.55
none or primary education (4th grade) 73 20.45 100.00

Nivel de educacion de la madre
var frequency percentage cumulative_perc
higher education 125 35.01 35.01
secondary education 90 25.21 60.22
5th to 9th grade 89 24.93 85.15
none or primary education (4th grade) 53 14.85 100.00

Nivel de educacion del padre
var frequency percentage cumulative_perc
5th to 9th grade 102 28.57 28.57
secondary education 94 26.33 54.90
higher education 88 24.65 79.55
none or primary education (4th grade) 73 20.45 100.00

Tiempo de viaje de la casa a la escuela
var frequency percentage cumulative_perc
<15 min. 236 66.11 66.11
15 to 30 min. 95 26.61 92.72
>30 min. 26 7.28 100.00

Clases extra pagadas
var frequency percentage cumulative_perc
no 184 51.54 51.54
yes 173 48.46 100.00

Razón de ingreso
var frequency percentage cumulative_perc
course 126 35.29 35.29
reputation 99 27.73 63.02
home 97 27.17 90.19
other 35 9.80 100.00

Acceso a Internet
var frequency percentage cumulative_perc
yes 299 83.75 83.75
no 58 16.25 100.00

Inasistencias
var frequency percentage cumulative_perc
0 to 5 absences 211 59.10 59.10
6 to 10 absences 80 22.41 81.51
11 to 20 absences 51 14.29 95.80
>20 absences 15 4.20 100.00

Análisis Bivariado

Al momento de analizar las relaciones entre variables cuantitativas y cualitativas se debe verificar que los datos cumplan una distribucion normal, dependiendo de esto se pueden tomar diferentes caminos para probar igualdad de medias entre diferentes tratamientos. Como se pudo observar cuando se analizó la variable de las notas de matemàticas, no seguía una distribución normal. Por lo tanto, al hacer la comparación de variable cualitativa vs la variable dependiente, se compara usando Kruskal-Wallis para verificar si existe relación entre las variables (verificando si sus distribuciones son la misma). En caso de que no lo sea se pasa a verificar por cada pareja para ver aquellas que influyen en la nota final de matemáticas.

Nivel de educacion de la madre vs notas finales

Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.

category n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
G31 none or primary education (4th grade) 53 10.3962 2.5969 10 10.3488 2.9652 5 16 11 0.1388 -0.2456 0.3567 3.00 9 12.00
G32 5th to 9th grade 89 11.2584 2.7367 11 11.1644 2.9652 6 19 13 0.3303 -0.0589 0.2901 3.00 10 13.00
G33 secondary education 90 11.3333 3.4250 11 11.2361 2.9652 5 19 14 0.2696 -0.5994 0.3610 4.75 9 13.75
G34 higher education 125 12.3280 3.4752 13 12.3465 4.4478 4 20 16 -0.0966 -0.6360 0.3108 5.00 10 15.00

Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by Medu
## Kruskal-Wallis chi-squared = 14.821, df = 3, p-value = 0.001976

Como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo de la madre (Medu) influye sobre las notas finales. Dado que se rechazo la hipotesis nula de la prueba se puede realizar la prueba de Wilcox para identificar cuales son las medias diferentes.

## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  Medu_G3$G3 and Medu_G3$Medu 
## 
##                     none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade    0.2288                                -               
## secondary education 0.2805                                0.9491          
## higher education    0.0024                                0.0640          
##                     secondary education
## 5th to 9th grade    -                  
## secondary education -                  
## higher education    0.1309             
## 
## P value adjustment method: holm
##                     none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade                                    FALSE               NA
## secondary education                                 FALSE            FALSE
## higher education                                     TRUE            FALSE
##                     secondary education
## 5th to 9th grade                     NA
## secondary education                  NA
## higher education                  FALSE

Al utilizar la prueba wilcox para identificar las medias diferentes se puede decir con un nivel de confiabilidad de 95% que son estadisticamente diferentes las medias entre higher education y none or primary education (4th grade). Es decir la media de notas finales de los estudiantes con madres con educacion universitaria son diferentes a las notas de los estudiantes con madres con educacion nula o primaria.

Nivel de educacion del padre vs notas finales

Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.

item category vars n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
G31 1 none or primary education (4th grade) 1 73 10.6438 3.0063 10.0 10.5085 2.9652 5 18 13 0.4026 -0.3891 0.3519 4 8 12
G32 2 5th to 9th grade 1 102 11.5686 3.1639 11.0 11.5366 2.9652 5 19 14 0.1636 -0.2861 0.3133 4 10 14
G33 3 secondary education 1 94 11.3404 3.2447 11.0 11.1842 2.9652 4 20 16 0.4075 -0.2874 0.3347 4 9 13
G34 4 higher education 1 88 12.3977 3.2889 12.5 12.4583 3.7065 5 19 14 -0.1595 -0.4848 0.3506 5 10 15

Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by Fedu
## Kruskal-Wallis chi-squared = 13.83, df = 3, p-value = 0.003146

De igual manera, para este analisis como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo del padre (Fedu) influye sobre las notas finales. Posteriormente se puede realizar una prueba de Wilcox para identificar las medias diferentes

## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  Fedu_G3$G3 and Fedu_G3$Fedu 
## 
##                     none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade    0.1737                                -               
## secondary education 0.3906                                0.4431          
## higher education    0.0023                                0.1760          
##                     secondary education
## 5th to 9th grade    -                  
## secondary education -                  
## higher education    0.0688             
## 
## P value adjustment method: holm
##                     none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade                                    FALSE               NA
## secondary education                                 FALSE            FALSE
## higher education                                     TRUE            FALSE
##                     secondary education
## 5th to 9th grade                     NA
## secondary education                  NA
## higher education                  FALSE

En el resultado de la prueba wilcox se puede identificar las medias estadisticamente diferentes con un nivel de confiabilidad de 95%. Vemos que las medias entre higher education y none or primary education (4th grade) tiene valor menor a 0.05 por tanto son diferentes. Es decir la media de notas finales de los estudiantes con padres con educacion universitaria son diferentes a las notas de los estudiantes con padres con educacion nula o primaria.

Tiempo de viaje vs notas finales

Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.

category n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
G31 <15 min. 236 11.7415 3.3129 11 11.7053 2.9652 4 20 16 0.1132 -0.4633 0.2157 4.25 9.75 14.00
G32 15 to 30 min. 95 11.1579 3.1227 11 11.0649 2.9652 5 19 14 0.3154 -0.4958 0.3204 4.00 9.00 13.00
G33 >30 min. 26 10.8846 2.6732 10 10.7727 2.9652 6 18 12 0.5655 0.1951 0.5243 2.75 10.00 12.75

Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by traveltime
## Kruskal-Wallis chi-squared = 3.7159, df = 2, p-value = 0.156

Para el caso de tiempo de viaje se evidencia que el valor p es mayor a 0.05, lo cual quiere decir que no hay una relacion significativa entre las variables. Es decir, el tiempo de viaje del estudiante no afecta significativa el resultado de las notas finales.

Clases extra pagas vs notas finales

Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.

category n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
G31 no 184 11.6141 3.4017 11 11.5676 2.9652 5 20 15 0.1702 -0.5850 0.2508 5 9 14
G32 yes 173 11.4277 3.0388 11 11.3525 2.9652 4 19 15 0.2353 -0.2895 0.2310 4 10 14

Vemos que visualmente no hay diferencias notables entre las medias de los tratamientos, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by paid
## Kruskal-Wallis chi-squared = 0.26329, df = 1, p-value = 0.6079

En este caso tambien vemos que el valor p no es menor a 0.05 por tanto, no hay una relacion significativa entre las variables. Es decir, las clases pagas extra no afectan significativamente las notas finales.

Acceso a internet vs notas finales

category n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
G31 no 58 10.7069 2.9677 10 10.6042 2.9652 5 18 13 0.3126 -0.1275 0.3897 3 9 12
G32 yes 299 11.6823 3.2568 11 11.6224 2.9652 4 20 16 0.1719 -0.4828 0.1883 4 10 14

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by internet
## Kruskal-Wallis chi-squared = 4.2654, df = 1, p-value = 0.0389

Razón de ingreso vs notas finales

category n mean sd median trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
G31 course 126 11.3016 3.2478 11 11.2255 2.9652 5 19 14 0.2709 -0.4072 0.2893 4 9 13
G32 home 97 11.5258 3.0791 11 11.4051 2.9652 5 19 14 0.3387 -0.4560 0.3126 4 10 14
G33 other 35 11.4857 3.2843 11 11.4138 2.9652 5 19 14 0.1892 -0.5487 0.5551 3 10 13
G34 reputation 99 11.8182 3.3484 12 11.8148 2.9652 4 20 16 0.0193 -0.4937 0.3365 4 10 14

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by reason
## Kruskal-Wallis chi-squared = 1.5656, df = 3, p-value = 0.6672

Inasistencias vs notas finales

##              category   n    mean     sd median trimmed    mad min max range
## G31   0 to 5 absences 211 12.0000 3.1275     12 11.9467 2.9652   5  20    15
## G32  6 to 10 absences  80 11.4000 3.2320     11 11.2969 2.9652   5  19    14
## G33 11 to 20 absences  51 10.1176 2.9976     10 10.0976 2.9652   5  17    12
## G34      >20 absences  15 10.2667 3.8446      9 10.1538 2.9652   4  18    14
##       skew kurtosis     se IQR Q0.25 Q0.75
## G31 0.1859  -0.5762 0.2153   5    10    15
## G32 0.3053  -0.3664 0.3613   5     9    14
## G33 0.0592  -0.6449 0.4198   4     8    12
## G34 0.6830  -0.2016 0.9927   3     8    11

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by absences
## Kruskal-Wallis chi-squared = 15.905, df = 3, p-value = 0.001186
## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  absences_G3$G3 and absences_G3$absences 
## 
##                   0 to 5 absences 6 to 10 absences 11 to 20 absences
## 6 to 10 absences  0.3654          -                -                
## 11 to 20 absences 0.0027          0.1786           -                
## >20 absences      0.1786          0.3654           0.8172           
## 
## P value adjustment method: holm

Sexo vs notas finales

##      category   n    mean     sd median trimmed    mad min max range   skew
## G31  Femenino 185 11.2054 3.1745     11 11.1678 2.9652   4  19    15 0.1902
## G32 Masculino 172 11.8663 3.2587     12 11.7681 2.9652   5  20    15 0.2133
##     kurtosis     se IQR Q0.25 Q0.75
## G31  -0.4009 0.2334   4     9    13
## G32  -0.5180 0.2485   4    10    14

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by sex
## Kruskal-Wallis chi-squared = 3.1464, df = 1, p-value = 0.0761

Edad vs notas finales

## [1] -0.1403718
## 
##  Pearson's product-moment correlation
## 
## data:  data$age and data$G3
## t = -2.6713, df = 355, p-value = 0.007905
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.24066109 -0.03711684
## sample estimates:
##        cor 
## -0.1403718

Direccion vs notas finales

##     category   n    mean     sd median trimmed    mad min max range   skew
## G31    Rural  78 10.7308 3.1936     10 10.6094 2.9652   5  19    14 0.3577
## G32   Urbano 279 11.7455 3.2080     11 11.6800 2.9652   4  20    16 0.1719
##     kurtosis     se IQR Q0.25 Q0.75
## G31  -0.1575 0.3616 4.5  8.25 12.75
## G32  -0.4867 0.1921 4.0 10.00 14.00

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by address
## Kruskal-Wallis chi-squared = 5.7749, df = 1, p-value = 0.01626

Estado civil padres vs notas finales

##            category   n    mean     sd median trimmed    mad min max range
## G31       Separados  39 11.7692 3.5278     11 11.6667 2.9652   6  19    13
## G32 Viviendo juntos 318 11.4937 3.1938     11 11.4414 2.9652   4  20    16
##       skew kurtosis     se IQR Q0.25 Q0.75
## G31 0.3720  -0.5665 0.5649 3.5    10  13.5
## G32 0.1735  -0.4494 0.1791 5.0     9  14.0

## 
##  Kruskal-Wallis rank sum test
## 
## data:  G3 by Pstatus
## Kruskal-Wallis chi-squared = 0.13396, df = 1, p-value = 0.7144

Conclusiones y Recomendaciones